class: center, middle, inverse, title-slide .title[ # R na vida real ] .subtitle[ ## Ideias e exemplos ] .author[ ### Fernando CorrĂȘa ] .institute[ ### Curso-R ] .date[ ### 22/11/2022 ] --- # Introdução - Em 1976 o **estatĂstico** John Chambers e colegas criam o S. A linguagem C foi criada por volta de 1972. - A recepção da comunidade foi Ăłtima. - Na dĂ©cada de noventa outros **estatĂsticos** iniciam uma nova implementação do S: a linguagem R. A linguagem se consolida. - O foco da linguagem sempre foi disponibilizar software para anĂĄlise de dados. - R e seus antepassados sĂŁo quase tĂŁo antigos quanto a expressĂŁo **data science**. --- # Big Data, Machine Learning, Data Science, IA etc... <img src="data:image/png;base64,#ecosistema.jfif" width="80%" style="display: block; margin: auto;" /> --- # Data Science na vida real - Essa sopa de letrinhas Ă s vezes tira o foco do verdadeiro trabalho: - Garantir fluxos de ingestĂŁo de dados (**Engenharia**) - Rapidez - Qualidade - Manipular dados para descobrir fatos e responder perguntas - Velocidade - Capacidade de anĂĄlise - EstratĂ©gia - Produzir nĂșmeros e açÔes com base nos dados - Modelagem - IngestĂŁo "ao contrĂĄrio", __deploy__ Praticamente todo o ecossistema de Data Science se ocupa dessas funçÔes acima, com diferentes filosofias e vantagens --- # Data Science na vida real | Mais detalhes - Garantir fluxos de ingestĂŁo de dados: - Existe um repositĂłrio central de dados para anĂĄlise, usualmente conhecido como _data warehouse_. Frequentemente Ă© necessĂĄrio distinguir entre um _data lake_, com muita informação que **pode** ser usada e um **data warehouse**. - Principal tarefa Ă© a gestĂŁo de **pipelines** - Dados sĂŁo armazenados nas mais variadas infraestruturas de dados, mas usualmente o trabalho consiste em manipular arquivos ou APIs de bancos de dados: - Queries, queries e mais queries - Kafka, Spark, Hadoop, bancos relacionais, noSQL etc atualmente podem ser acionados por praticamente qualquer linguagem - As integraçÔes com certas linguagens tem vantagens com relação a outras. PySpark permite escrever em Python comandos para Spark, mas Spark Ă© feito em Scala. --- # Data Science na vida real | Mais detalhes - Manipular dados para descobrir fatos e responder perguntas: - Velocidade - Ă preciso produzir anĂĄlises, insights etc de maneira rapida - Dashboards brilham muito: entregam anĂĄlises prĂ©-definidas continuamente e permitem vĂĄrias interaçÔes - Reprodutibilidade Ă© importante - Capacidade de anĂĄlise - Volume de dados nĂŁo deveria ser um problema: Ă© importante analisar tudo com facilidade - EstratĂ©gia - Trabalho difĂcil de automatizar: quais perguntas fazer? como transformar dados e anĂĄlises em dinheiro? --- # Data Science na vida real | Mais detalhes - Produzir nĂșmeros e açÔes com base nos dados - Definida a estratĂ©gia falta garantir que nĂșmeros sejam produzidos quando Ă© necessĂĄrio. - Mais pipelines - Modelos precisam ser aplicados na prĂĄtica - NĂŁo necessariamente a mesma tecnologia que fez as anĂĄlises precisa ser usada na hora que o insight for efetivamente usado --- # Data Science na vida real <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#breakdown.png" alt="Fonte: Survey anual de 2020 da Anaconda." width="60%" /> <p class="caption">Fonte: Survey anual de 2020 da Anaconda.</p> </div> --- # R _Data Science_ na vida real - Visualização e manipulação de dados sĂŁo tarefas intensamente suportadas pela comunidade de R - Foco radical em reprodutibilidade devido Ă s raĂzes acadĂȘmicas da linguagem - Manipulação pode ser feita em R, ou como em praticamente todas as linguagens, usando traduçÔes ao vivo de R para outro motor como SQL Server, Postgre e Spark. - ggplot2 Ă© muito flexĂvel - Para a definição de estratĂ©gias frequentemente as anĂĄlises precisam ser formatadas em relatĂłrios, Rmarkdown e mais recentemente Quarto resolvem esse problema --- # R ~~Data Science~~ na vida real | BBC InĂșmeras empresas, governos e organizaçÔes em geral utilizam R no seu dia-a-dia. <img src="data:image/png;base64,#bbc.png" width="60%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | BBC <img src="data:image/png;base64,#bbc-2.png" width="75%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Financial Times <img src="data:image/png;base64,#financial_times.png" width="70%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Airbnb Nem sĂł de grĂĄficos bonitos vive quem usa R: <img src="data:image/png;base64,#relatorios-airbnb.png" width="55%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Airbnb <img src="data:image/png;base64,#padronizacao-airbnb.png" width="75%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Airbnb - Em 2016 64% da equipe de analytics do Airbnb usava R como linguagem principal. 31% usava Python, 5% usava as mesmas linguagens igualmente. - MantĂ©m um pacote interno para simplificar o acesso de qualquer pessoa da equipe Ă s bases de dados internas da empresa ( _data warehouses_ e _data lakes_ ) - Em R e Python --- # R ~~Data Science~~ na vida real | Airbnb <img src="data:image/png;base64,#vaga-airbnb.png" width="80%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Estado de Indiana nos EUA <img src="data:image/png;base64,#indiana.png" width="80%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Uber <img src="data:image/png;base64,#uber.png" width="80%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Uber <img src="data:image/png;base64,#uber-2.png" width="80%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | T-Mobile Os resultados de previsĂŁo podem ser disponibilizados na forma de APIs em R <img src="data:image/png;base64,#t-mobile.png" width="80%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Modelagem Fora a utilização de R nas diretamente nas empresas, tambĂ©m Ă© muito comum projetos acadĂȘmicos: - Cientistas e demais profissionais de pesquisa frequentemente liberam o resultados dos seus trabalhos em R em pacotes consagrados como `glmnet`, `randomForest` etc; - `prophet` do Facebook e `causalImpact` do Google sĂŁo modelos de sĂ©ries temporais bayesianos super sofisticados com interface para utilização simples em problemas de previsĂŁo e identificação de impactos em sĂ©ries temporais; - Muitos artigos, inclusive em revistas de prestĂgio como a Nature utilizam R como ferramenta de reprodução. - Alguns modelos tradicionais de sĂ©ries temporais atĂ© hoje sĂŁo encontrados em R e sĂł em R nas suas implementaçÔes originais. --- # R ~~Data Science~~ na vida real | Appsilon <img src="data:image/png;base64,#apssilon.png" width="88%" style="display: block; margin: auto;" /> --- # R ~~Data Science~~ na vida real | Appsilon <img src="data:image/png;base64,#exemplo-appsilon.png" width="88%" style="display: block; margin: auto;" /> --- # ConclusĂŁo - R admite as mais variadas aplicaçÔes na prĂĄtica, normalmente integrando e aproveitando as vantagens de outras tecnologias - Muitas organizaçÔes ao redor do mundo utilizam R no seu dia-a-dia - R nunca serĂĄ a Ășnica linguagem utilizada no pipeline como um todo considerando a extensĂŁo do trabalho de cientistas de dados --- Obrigado! Acesse http://curso-r.com e aproveite nossos cursos